智能论文笔记

Robust Stability of Neural Network-controlled Nonlinear Systems with Parametric Variability

Soumyabrata Talukder , Ratnesh Kumar

分类：机器学习

2021-09-13

稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性，稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现，需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络（NN）控制的非线性系统的稳定性和稳定性的一般理论，提出了基于Lyapunov的稳定性证书，并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因（ROA）。为了计算这种强大的稳定NN控制器，它也最大化了系统的长期实用程序，提出了稳定性保证训练（SGT）算法。提出的框架的有效性通过说明性示例得到了验证。

translated by 谷歌翻译

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection

Md. Alamin Talukder , Khondokar Fida Hasan , Md. Manowarul Islam , Md Ashraf Uddin , Arnisha Akhter , Mohammand Abu Yousuf , Fares Alharbi , Mohammad Ali Moni

分类：机器学习

2022-12-08

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.

translated by 谷歌翻译

An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning

Tushar Talukder Showrav

分类：自然语言处理

2022-09-16

一种独立的自动解码和转录口服语音方法称为自动语音识别（ASR）。典型的ASR系统提取物从音频录制或流中列出，并运行一种或多种算法以将功能映射到相应的文本。近年来，在语音信号处理领域进行了许多研究。当获得足够的资源时，常规的ASR和新兴的端到端（E2E）语音识别都产生了有希望的结果。但是，对于像孟加拉这样的低资源语言，ASR的当前状态落后于落后，尽管低资源状态并没有反映出这一语言是全世界有超过5亿人使用的。尽管它很受欢迎，但并没有很多可用的开源数据集，因此很难对孟加拉语语音识别系统进行研究。本文是名为“ Buet CSE Fest DL Sprint”的比赛的一部分。本文的目的是通过基于转移学习框架在E2E结构上采用语音识别技术来提高孟加拉语的语音识别表现。提出的方法有效地对孟加拉语语言进行了建模，并在7747个样本的测试数据集上以“ Levenshtein平均距离”获得3.819分数，而仅使用1000个火车数据集样本进行培训。

translated by 谷歌翻译

Online Low Rank Matrix Completion

Prateek Jain , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2022-09-08

我们研究了\ textit {在线}低率矩阵完成的问题，并使用$ \ mathsf {m} $用户，$ \ mathsf {n} $项目和$ \ mathsf {t} $ rounds。在每回合中，我们建议每个用户一项。对于每个建议，我们都会从低级别的用户项目奖励矩阵中获得（嘈杂的）奖励。目的是设计一种以下遗憾的在线方法（以$ \ mathsf {t} $）。虽然该问题可以映射到标准的多臂强盗问题，其中每个项目都是\ textit {独立}手臂，但由于没有利用武器和用户之间的相关性，因此遗憾会导致遗憾。相比之下，由于低级别的歧管的非凸度，利用奖励矩阵的低排列结构是具有挑战性的。我们使用探索-Commit（etc）方法克服了这一挑战，该方法确保了$ O（\ Mathsf {polylog}（\ Mathsf {m}+\ \ \ \ \ Mathsf {n}）\ Mathsf {t}^{2/2/ 3}）$。 That is, roughly only $\mathsf{polylog} (\mathsf{M}+\mathsf{N})$ item recommendations are required per user to get non-trivial solution.我们进一步改善了排名$ 1 $设置的结果。在这里，我们提出了一种新颖的算法八进制（使用迭代用户群集的在线协作过滤），以确保$ O（\ Mathsf {polylog}（\ Mathsf {M}+\ Mathsf {N}）几乎最佳的遗憾。 ^{1/2}）$。我们的算法使用了一种新颖的技术，可以共同和迭代地消除项目，这使我们能够在$ \ Mathsf {t} $中获得几乎最小的最佳速率。

translated by 谷歌翻译

A semantic web approach to uplift decentralized household energy data

Jiantao Wu , Fabrizio Orlandi , Tarek AlSkaif , Declan O'Sullivan , Soumyabrata Dev

分类：人工智能 | 机器学习

2022-08-18

在由家用电器，电动汽车和太阳能电池板等各种设备组成的分散家庭能源系统中，最终用户可以更深入地研究该系统的细节，并进一步实现能源可持续性，如果向它们提供了有关电能消耗的数据和设备粒度的生产。但是，该领域中的许多数据库都是从其他域中孤立的，包括仅与能源有关的信息。这可能会导致每个设备能源使用的信息损失（\ textit {例如{例如}天气）。同时，许多这些数据集已在计算建模技术（例如机器学习模型）中广泛使用。尽管这种计算方法仅通过仅专注于数据集的局部视图来实现极高的准确性和性能，但不能保证模型可靠性，因为当考虑到信息遗漏时，此类模型非常容易受到数据输入波动的影响。本文通过在家庭能源系统的基础上检查语义Web方法来解决智能能源系统领域的数据隔离问题。我们提供了一种基于本体的方法，用于在系统中的设备级分辨率下管理分散数据。结果，与每个设备相关的数据的范围可以在整个网络中以可互操作的方式轻松扩展，并且只要根据W3C标准组织数据，就可以从网络中获得其他信息，例如天气。。

translated by 谷歌翻译

Explainable and High-Performance Hate and Offensive Speech Detection

Marzieh Babaeianjelodar , Gurram Poorna Prudhvi , Stephen Lorenz , Keyu Chen , Sumona Mondal , Soumyabrata Dey , Navin Kumar

分类：自然语言处理 | 机器学习

2022-06-26

信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况，已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外，从而减少信任，因此有必要创建可解释和可解释的模型。因此，我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据，XGBoost在仇恨言语检测上的表现优于LSTM，Autogluon和ULMFIT模型，F1得分为0.75，而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时，XGBoost的性能优于LSTM，Autogluon和Ulmfit；仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79，XGBOOST的表现也比LSTM，Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明（SHAP），以使其与Black-Box模型相比，与LSTM，Autogluon和Ulmfit相比，它可以解释和解释。

translated by 谷歌翻译

Community Recovery in the Geometric Block Model

Sainyam Galhotra , Arya Mazumdar , Soumyabrata Pal , Barna Saha

分类：机器学习

2022-06-22

为了捕获许多社区检测问题的固有几何特征，我们建议使用一个新的社区随机图模型，我们称之为\ emph {几何块模型}。几何模型建立在\ emph {随机几何图}（Gilbert，1961）上，这是空间网络的随机图的基本模型之一，就像在ERD \ H上建立的良好的随机块模型一样{o} s-r \'{en} yi随机图。它也是受到社区发现中最新的理论和实际进步启发的随机社区模型的自然扩展。为了分析几何模型，我们首先为\ emph {Random Annulus图}提供新的连接结果，这是随机几何图的概括。自引入以来，已经研究了几何图的连通性特性，并且由于相关的边缘形成而很难分析它们。然后，我们使用随机环形图的连接结果来提供必要的条件，以有效地为几何块模型恢复社区。我们表明，一种简单的三角计数算法来检测几何模型中的社区几乎是最佳的。为此，我们考虑了两个图密度方案。在图表的平均程度随着顶点的对数增长的状态中，我们表明我们的算法在理论上和实际上都表现出色。相比之下，三角计数算法对于对数学度方案中随机块模型远非最佳。我们还查看了图表的平均度与顶点$ n $的数量线性增长的状态，因此要存储一个需要$ \ theta（n^2）$内存的图表。我们表明，我们的算法需要在此制度中仅存储$ o（n \ log n）$边缘以恢复潜在社区。

translated by 谷歌翻译

Deep Neural Imputation: A Framework for Recovering Incomplete Brain Recordings

Sabera Talukder , Jennifer J. Sun , Matthew Leonard , Bingni W. Brunton , Yisong Yue

分类：机器学习 | 神经与进化计算 | (统计)机器学习

2022-06-16

神经科学家和神经工具长期以来一直依赖多电极神经记录来研究大脑。但是，在典型的实验中，许多因素损坏了来自单个电极的神经记录，包括电噪声，运动伪像和制造错误。当前，普遍的做法是丢弃这些损坏的录音，减少已经有限的数据，难以收集。为了应对这一挑战，我们提出了深层神经插补（DNI），这是一个从跨空间位置，天和参与者中收集的数据中学习的框架，以从电极中恢复缺失值。我们通过线性最近的邻居方法和两个深层生成自动编码器探索我们的框架，证明了DNI的灵活性。一位深度自动编码器单独建模参与者，而另一个则扩展了该体系结构以共同建模。我们评估了12名用多电极内电图阵列植入的人类参与者的模型；参与者没有明确的任务，并且在数百个记录小时内自然行为。我们表明，DNI不仅恢复了时间序列，还可以恢复频率内容，并通过在科学相关的下游神经解码任务上恢复出色的性能来进一步确立DNI的实际价值。

translated by 谷歌翻译

Frequency-centroid features for word recognition of non-native English speakers

Pierre Berjon , Rajib Sharma , Avishek Nag , Soumyabrata Dev

分类：自然语言处理

2022-06-14

这项工作的目的是研究互补的特征，这些特征可以帮助典型的MEL频率经系系数（MFCC），以封闭，有限的set set Word识别为不同母亲说话的英语说话者。与源自语音信号的光谱能量的MFCC不同，提议的频率饮食（FCS）封装了语音光谱不同带的光谱中心，由MEL FILLEC BANK定义。观察到这些功能与MFCC结合使用，可提供英语单词识别的相对性能提高，尤其是在各种嘈杂条件下。两阶段的卷积神经网络（CNN）用于模拟用阿拉伯语，法语和西班牙口音说出的英语单词的特征。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译